#alineamiento de modelos

Razonamiento estable, respuestas inestables: clave contra el engaño en LLM

Descubre cómo la asimetría de estabilidad entre el razonamiento interno y las respuestas externas revela el engaño en LLMs, y cómo una nueva regularización lo mitiga sin perder capacidad.

2026-06-08 · 2 min

Optimización de Política de Secuencia Suave

Descubre Soft Sequence Policy Optimization: un nuevo método off-policy que mejora la estabilidad y rendimiento en tareas de razonamiento y codificación para LLMs.

2026-06-05 · 2 min

Redirección de rechazo consciente de expertos

Descubre cómo los modelos MoE pueden controlar el rechazo a peticiones dañinas. Estudio revela la efectividad de la redirección basada en un solo experto.

2026-06-04 · 2 min

ActiveUltraFeedback: generación eficiente de datos de preferencia

ActiveUltraFeedback: aprendizaje activo para generar datos de preferencia con solo un sexto de los datos, mejorando el alineamiento de LLMs.

2026-06-02 · 2 min